Sintetizar y Recompensar: Aprendizaje por Refuerzo para Herramientas Multi-Paso Descubre PROVE: recompensas programáticas para mejorar el uso de herramientas multi-paso en LLMs. Resultados en BFCL, tau2-bench y T-Eval. 2026-06-03 · 2 min